С.М. САЛЬНИКОВА

Научный руководитель – Ю.А. ПОПОВ, д.т.н., профессор

 

Московский инженерно-физический институт (государственный университет)

Международный научно-технологический парк  "Технопарк в Москворечье"

 

ПРОЕКТ: СИСТЕМА ПОИСКА ЗНАНИЙ В INTERNET

 

Проект посвящен разработке системы поиска Знаний в Internet. Представлена краткая характеристика системы поиска знаний, показано, чем она отличается от поиска обычной информации и каковы перспективы данного направления. Описана система поиска информации, состоящая из поискового робота и базы данных, имеющая удобный дружественный web-интерфейс. На основе системы поиска информации планируется реализовать в будущем более сложную систему поиска Знаний.

 

1. Описание проблемы

Важнейшей национальной задачей информационного обеспечения является создание единого виртуального пространства науки и образования. Особую роль в этом пространстве играют системы поиска Знаний.

На сегодняшний день Знания являются неотъемлемой частью мира информационных технологий. Для любой организации, желающей преуспеть в глобальной информационной экономике, необходима интеллектуальная, исчерпывающая и простая в использовании система для управления запасами Знаний, а также система доступа к Знаниям и система приобретения новых Знаний.

С точки зрения целей общества, где доминируют информационные технологии, Знания – это просто интеллект, используемый в работе. Приобретаемые фактическим опытом, Знания продуктивны только когда, они используются при выполнении работы или интегрируются в процесс выполнения работы. Информации в наше время, так много, что мы оказываемся неспособными использовать ее. Знания - сегодняшняя валюта.

Знания это понимание, приобретаемое фактическим опытом (например, знание какого-либо ремесла); акт понимания: ясное восприятие истины; нечто понятое и держащееся в уме; состояние осведомленности о чем-то или обладание информацией; диапазон информированности или осведомленности (определение из энциклопедического словаря Webster).

Часто Знания оказываются чем-то большим, чем просто информацией и данными о событиях, продуктах или процедурах. Знания – это:

·       Знать-как (Know-how) – протестированные, доказанные процедуры выполнения чего-либо;

·       Знать-кто (Know-who) – люди, обладающие соответствующим опытом или ресурсами;

·       Знать-что (Know-what) – способность различения и выбора ключевых моделей и актуальных действий;

·       Знать-почему (Know-why) – понимание контекста обширного опыта (видение);

·       Знать-когда (Know-when) – соединение чувств ритма, времени и реализма;

Поиск Знаний представляет собой высшую форму поиска информации, поскольку должен обладать интеллектуальным доступом к информации и искать любые типы данных, наиболее адекватных запросу, в любом месте через унифицированный пользовательский web-интерфейс. Знания можно извлекать из рабочих процессов, обзоров новостей и широкого диапазона других источников. Поиск Знаний отличается от поиска данных и информации в Сети:

Поиск данных – сегодня этой работой занимаются многие низкоуровневые булевы поисковые механизмы. Они не решают проблему управления Знаниями, а только вносят свой вклад в перенасыщение информацией, заставляя пользователей плутать в океане сырых, часто ненужных битов.

Поиск информации – здесь найденная информация выдается пользователям в так или иначе организованном виде. Но при таком поиске не используется контекст и понимание существа запроса. Например, невозможно провести различие между "пером" авторучки и "пером" птицы, поэтому ищущие Знания пользователи вынуждены путаться в море неоднозначных результатов.

Поиск Знаний – осуществляется тогда, когда поисковые механизмы высокого уровня доставляют только информацию, действительно актуальную для нужд пользователей, информацию, находящуюся в резонансе с целью исходного запроса. Для того чтобы система поиска Знаний работала действительно эффективно в сегодняшнем мире великого множества информации, она должна быть точной, масштабируемой, безопасной, расширяемой, прозрачной и простой в использовании.

В настоящее время системы поиска Знаний необходимы для максимального удовлетворения потребностей своих пользователей. Они не только повышают эффективность имеющихся программных решений, но и развивают новые направления управления Знаниями, охватывающие все более широкий спектр деловой активности. А также позволяют не утонуть в пучине информации и преобразовать ее в Знания, которые так необходимы современному обществу.

Поиск Знаний представляет собой ключевую технологию управления Знаниями. Невозможно управлять интеллектуальным капиталом, если к нему нет быстрого и легкого доступа. При поиске Знаний находится точная и актуальная информация, готовая к немедленному использованию для решения проблемы. Реализовав решения по управлению Знаниями, различные организации сделают первые шаги к разбиению огромного кроссворда управления Знаниями на управляемые, понятные части.

В дополнение к технологии поиска Знаний, организация должна обладать инфраструктурой для распространения и совместного использования Знаний. Рабочие группы должны быть способны быстро распространять необходимую информацию между собой. Служащие организации должны пользоваться хранилищами информации, содержащими коллективные Знания. Работники должны иметь доступ ко всем видам информации со своего рабочего места. Кроме того, для организации крайне важна способность приобретения новых Знаний. Это, например, способность получать внутреннюю и внешнюю информацию без значительных затрат времени и труда.

Решения задачи поиска Знаний помогают:

      уменьшить или исключить симптомы информационной усталости (переизбытка информации);

      максимально увеличить отдачу всех фондов информации, включая полнотекстовую, структурированную и видеоинформацию;

      предоставить организациям возможность строить свою работу в соответствии с принципами эффективного управления Знаниями и получить конкурентные преимущества.

 

2. Предложения по решению проблемы

Первым этапом на пути к реализации системы поиска Знаний в Сети Internet стала разработка Комплексной Системы Поиска Информации.

Поисковая система представляет собой сервер с большой базой данных URL-адресов, который автоматически копирует www-страницы со всех адресов этого списка, анализирует содержимое этих страниц, формирует базу данных ключевых слов web-документов. Этот процесс носит название индексирование страниц. Дополнительно поисковый сервер обращается по всем встречаемым на страницах ссылкам, копирует новые страницы и т.д.

Обычно поисковая система состоит из трех частей:

·       поисковый робот, который перемещается по Сети и собирает информацию;

·       база данных для хранения информации, собранной роботом;

·       интерфейс для взаимодействия пользователя с базой данных.

Поисковый робот используется для сбора информации о документах, находящихся в Сети Internet. Он представляет собой специальную программу, которая занимается поиском страниц в Сети, извлекает гипертекстовые ссылки с этих страниц и автоматически индексирует информацию.

Найденная роботом информация заносится в Базу Данных. Информация, хранящаяся в Базе у каждой поисковой системы своя.

Для поиска информации, доступной в Internet, пользователям необходимо посетить страницу поисковой системы представляющую собой интерфейс к Базе Данных, хранящей информацию о ресурсах Сети и заполнить форму, детализирующую информацию, которая ему необходима. База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы.

Разработанная Комплексная Поисковая Система классически разделена на три части: собственно поисковый робот, база данных для хранения собранной роботом информации и интерфейс для отображения информации, хранящейся в базе данных, по запросу пользователя. Поисковый робот, начиная со стартовой страницы, последовательно обрабатывает ссылки, переходя с сайта на сайт. Полученная информация заносится в базу данных. С помощью интерфейсной части эта информация становится доступной широкому кругу пользователей Internet.

После изучения и проведения сравнительного анализа практически всех возможных средств для разработки Комплексной системы поиска информации был сделан выбор в пользу следующих программных продуктов:

·       в качестве платформы реализации был выбран www-сервер Apache;

·       в качестве языка разработки системы – язык PHP;

·       в качестве базы данных для хранения информации - MySQL.

Использование MySQL, по сравнению с другими СУБД, представляется более рациональным из-за значительно меньших требований к мощности оборудования и значительно более высокой скорости работы. PHP – свободно распространяем в рамках лицензии GPL (General Public License) под все платформы, включая Win32, как и www-сервер Apache.

Достоинствами данной Поисковой Системы являются:

      использование оригинального языка запросов, позволяющего не только создавать простые запросы с использованием логических операторов (И, ИЛИ), но и достаточно сложные с использованием регулярных выражений, с возможностью искать информацию не по полному слову, а по отдельной его части, а также осуществлять уникальный поиск, указывая в строке не только что искать, но и в каком конкретно поле таблицы базы данных это делать;

      отсутствие излишней информации на самой  странице поиска;

      возможность поиска не только страниц, содержащих необходимую информацию, но и поиск e-mail адресов, содержащихся на указанной странице;

      переносимость основного ядра на другие SQL-платформы.

Также в рамках разработанной Комплексной Системы Поиска Информации реализованы такие дополнительные возможности, как самостоятельное добавление пользователем в базу собственного web-сайта или страницы, "поиск в найденном", поиск e-mail-адресов по указанному адресу web-страницы.

Комплексная поисковая система может быть установлена и запущена в работу на любом web-сервере сети Internet, поддерживающем язык PHP.

 

Список литературы

 

1.        Ратшиллер  T.,  Геркен T. PHP4.  Разработка Web-приложений. Спб.: Питер, 2001

2.        http://www.vest-meta.ru/tech/knowledge/default.asp – статья "Поиск Знаний, как основа управления знаниями"

3.        http://www.olap.ru/basic/k_management.asp – статья "Управление корпоративными знаниями"